相爱相杀的置信区间和p值
最近,小咖收到不少小伙伴们关于置信区间和p值的疑惑,今天就让我们通过几个例子,来剖析一下这两个统计指标的关联。
简单回顾一下重要的定义。置信区间(confidence interval,CI),常常和观测值的点估计值一起出现,是样本对总体的一个区间估计,也可以被看作是点估计值可信程度的一种体现。 p值是假设检验中的关键结果,从统计学的角度衡量了数据与假设之间的关系(可点击查看:你真的理解p值么?一句话解释p值的常见误解。。。),实际应用上,通过将p值和预先设定的临界值(通常会使用0.05)做比较,我们可以判断统计结果是否显著。
这两个看起来不是很相关的数据,其实有着千丝万缕的关系。因为置信区间的计算方法,有时通过观察置信区间的范围,也能得出和p值相同的结论。从下面的例子出发,我们能从统计学的角度深入理解它们的关系。
1. 单个样本与总体比较
单个样本分析的假设检验中,我们通常会有一个假设值。譬如,已知某市初中女生的平均身高为156.7cm,某学校想要知道本校初中女生的平均身高是否和全市水平相同,这就是一个双向的假设检验,即检验“该校初中女生身高是否等于156.7cm”,这一假设。学校随机抽取了30(n)名初中女生测量身高,计算出平均身高156.46cm(
我们可以计算出95%置信区间(144.25,168.67),观察到这个区间包括了一开始的假设值(μ),156.7cm。
那么,假设检验中会发生什么呢?在双向假设检验中,我们首先根据下面的公式计算统计量:
然后再将得到的t值与t分布比较,得到p值=0.83,没有统计差异。
在这个例子中,“置信区间是否包括假设值”,和“假设检验的结果”是一致的。这是因为,上面的两个算式通过左右移项,可以变成同样的形式,这也从统计的角度,解释了为什么我们可以用置信区间和假设检验得到同样的结论。
(注意:这个等价关系只在双边检验(即判断“是否等于”)中存在,单边假设检验只能与不大常见的“单侧置信区间”做比较,此处不赘述。实际计算中,有时用正态分布Z值取代公式中的t值)
2. 两个独立样本检验
置信区间和p值,在两个独立样本检验中有什么不同?
举一个例子,某新药研发部门希望使用药物安全数据,判断服用药物是否会造成谷丙转氨酶水平变化。该临床试验中,50位患者随机分配到实验组,另外50位患者接受安慰剂(对照组)。试验结束后,获得数据如下:
从图表可以看出,尽管实验组和对照组ALT的置信区间有重叠,假设检验的结果却是存在显著统计差异(p<0.05)。这是因为两个独立样本分析时,计算置信区间和假设检验数据的方法不再相同。简单来说,计算实验组和对照组各自的95%置信区间用的是各自的标准误,公式和上文单组分析一样:
然而进行两组差异的假设检验时,用的是两组合并(pooled )的标准误,并且自由度也因两组合并而变大。因此,95%可信区间和p<0.05并不等价。
换句话说,如果画出数据中两组差异(实验组-对照组)的95%置信区间,我们可以发现这个区间并不包括0,得出的结论和p值的判断一致。这时,就相当于简化为上文的单组分析。但仅仅看两组各自的置信区间,我们得出的结论却不一定和假设检验相同。这个时候,我们应该相信哪个结果呢?
需要综合考虑。置信区间只是一个区间估计的方法,并不是为测量统计差异而设计的工具,p值虽然可以帮助我们判断统计结果的显著性,但是没有组间差异的信息。在这个ALT的数据中,尽管p<0.05,从两组的差异来看,ALT水平的绝对差异并不是很大(∆=0.54),是否具有临床意义值得讨论。
所以,仅仅因为p<0.05,就得出药物造成显著副作用的结论,未免有些操之过急。对于这样的结果,建议:同时报告p值和置信区间的结果,并且对可能造成结果不一致的原因(譬如绝对差异较小)进行讨论。在文献中读到这样的结果,也要保持警觉,看看结论是否片面。
3. 总结
p值一向被视作结论判断的黄金标准,但并不能完全解释治疗效果、或关联强度的大小 。 点估计和置信区间对于衡量研究的临床意义非常重要,却不能代替p值在假设检验的作用。所以,研究中不能只选择性报告部分结果,特别是在结论不是非常确切的情况下,更要综合考虑数据的临床和统计学意义,谨慎、完整地呈现所有的信息,才能得到更加科学的结论。
参考文献
《卫生统计学教程》,王燕、康晓平(2006)
相关阅读
关注医咖会,涨姿势!
我们建了一个微信群,有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进群和其他小伙伴们一起交流学习。
点击左下角“阅读原文”,看看医咖会既往推送了哪些研究设计或统计学文章。